FILTER MODE ACTIVE

#оптимизация политики

Найдено записей: 2

#оптимизация политики30.06.2025

DSRL: Управление роботами через обучение с подкреплением в латентном пространстве для реальной адаптации

DSRL представляет инновационный метод адаптации диффузионных политик роботов с помощью обучения с подкреплением в латентном пространстве, значительно улучшая результаты в реальных условиях без изменения базовой модели.

#оптимизация политики27.05.2025

QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением

QwenLong-L1 представляет структурированный подход к обучению с подкреплением, позволяющий большим языковым моделям эффективно решать задачи с длинным контекстом и достигает лучших результатов на множестве бенчмарков.